- ÉVALUATION - La docimologie
- ÉVALUATION - La docimologieLe terme «docimologie» a été proposé par H. Piéron pour désigner l’«étude systématique des examens». Cette étude a commencé en France peu après 1920. Les premiers travaux ont été réalisés par H. et M. Piéron, H. Laugier et D. Weinberg. Une enquête internationale sur «les conceptions, les méthodes, la technique et la portée pédagogique et sociale des examens et concours», financée à partir de 1931 par la Carnegie Corporation, donna lieu à partir de 1936 à des publications en Angleterre (P. Hartog et E. Rhodes, An Examination of Examinations ) et en France (La Correction des épreuves écrites dans les examens ). Une autre série de travaux fut entreprise sur le même sujet en France, en 1956, à la demande du Conseil supérieur de la recherche scientifique et du progrès technique. Dirigés par H. Piéron et M. Reuchlin, ils firent l’objet de plusieurs publications (Biotypologie , Bulletin de l’I.N.O.P. , Travail humain ).De nombreux autres chercheurs, en France et à l’étranger, ont contribué à l’étude des examens et des procédures d’évaluation. D’abord essentiellement critique, mettant expérimentalement en évidence le défaut d’objectivité des procédures traditionnelles, l’ensemble de ces travaux s’est orienté ensuite vers la recherche positive de procédures d’évaluation plus satisfaisantes et vers l’intégration (au niveau de la réflexion et au niveau des techniques) des problèmes d’évaluation au sein de l’ensemble des problèmes éducatifs. Le plan de cet article s’inspire de cette évolution.Une objection préliminaire éventuelle mérite cependant d’être évoquée: au lieu d’étudier systématiquement les procédures d’évaluation des connaissances, ne conviendrait-il pas de les supprimer purement et simplement? Ne sont-elles pas pédagogiquement nuisibles, socialement et politiquement orientées? Cette objection radicale paraît mal fondée, tant sur le plan pédagogique que sur le plan social. Pédagogiquement, l’évaluation peut fournir à chaque élève ou étudiant des éléments d’information lui permettant d’envisager de façon plus éclairée son orientation scolaire et professionnelle; elle peut fournir à chaque enseignant des indications sur l’efficacité de sa pédagogie par référence à une population d’élèves plus large que la classe qui lui a été confiée; elle peut fournir, lorsqu’elle porte sur des groupes d’élèves suffisamment étendus et convenablement choisis, des données objectives sur les programmes proposés (qui peuvent notamment se révéler trop ambitieux) et sur l’efficacité des méthodes employées. Socialement, l’évaluation assume aussi des fonctions répondant à des problèmes qui se posent sous tous les régimes économiques et politiques. Toutes les sociétés s’efforcent de ne confier les emplois de responsabilité ou de sécurité qu’à des personnes ayant acquis la compétence requise pour les occuper. Il faut bien évaluer partout cette compétence, et il ne paraît pas socialement souhaitable que l’université se décharge de cette fonction. Des critères d’évaluation extra-universitaires ne manqueraient pas d’ailleurs d’avoir des effets sur l’orientation des enseignements. D’autre part, les citoyens, fournissant les moyens nécessaires au fonctionnement de l’appareil éducatif qui absorbe partout une part non négligeable du produit national, ne sauraient se désintéresser du «rendement» de cet appareil.1. Critique des méthodes traditionnelles d’évaluationLes divergences entre évaluateursL’étude des méthodes d’évaluation peut être faite d’abord à partir d’enquêtes utilisant l’analyse statistique de notes effectivement attribuées au cours d’examens. Dans ce cas, on ne dispose en général que d’une note par élève pour une discipline donnée. On peut déjà faire dans ces conditions un certain nombre de constatations.Les moyennes utilisées par des notateurs différents paraissent être différentes. Au baccalauréat, les candidats sont répartis au hasard (ordre alphabétique) entre des examinateurs différents. Le calcul des probabilités permet de prévoir entre quelles limites peuvent se situer vraisemblablement les moyennes des notes attribuées ainsi par ces examinateurs. On constate, en général, que les écarts observés entre ces moyennes sont largement supérieurs aux écarts prévisibles. L’analyse des notes de dix-sept jurys du baccalauréat dans le département de la Seine en juillet 1955 a montré que ces moyennes s’étalaient de 5,8 à 9,1 en mathématiques, de 7,0 à 9,3 en philosophie, de 7,6 à 10,5 en physique. Il s’agissait là des épreuves écrites. Les épreuves orales fournissaient des moyennes plus largement dispersées encore.Des enquêtes du même type montrent, de façon semblable, que les échelles de notes utilisées par des juges différents présentent des dispersions très inégales, certains juges étalant leurs notes sur une marge bien plus large que d’autres. Les corrélations entre notes attribuées aux mêmes candidats, dans la même discipline, pour les épreuves écrites et les épreuves orales, peuvent être aussi anormalement faibles.D’autres enquêtes ont porté non plus sur des notes d’examen «externes» mais sur des évaluations pratiquées par les enseignants sur leurs propres élèves. Elles valent d’être mentionnées, puisqu’on a pu préconiser l’emploi de ces notes comme substitut aux examens. Une constatation importante porte sur l’existence de différences considérables dans le niveau réel de classes portant la même appellation. Des épreuves normalisées de connaissances en français et en mathématiques ont pu être appliquées, en 1963-1964, à plus de dix mille élèves fréquentant quatre cent neuf classes de troisième. Pour l’ensemble des classes examinées, les moyennes des classes s’étalent, en français, sur une marge de 37 points (la note maximale dans l’épreuve étant 80; l’écart type 9,4); en mathématiques, sur une marge de 31 points (note maximale 44; écart type 9,1). Les appréciations données par les enseignants sont inévitablement fonction du niveau moyen de leur classe. Il y a donc de grands risques pour que la même note scolaire corresponde à des niveaux de connaissances effectifs très différents selon qu’elle est donnée dans une classe de niveau élevé ou dans une classe de niveau faible. C’est ce que l’on constate en fait lorsqu’on compare les résultats atteints, dans des épreuves normalisées communes à plusieurs classes, par des élèves ayant obtenu la même appréciation scolaire dans des classes différentes. Des vérifications de ce genre ont été faites au niveau de la classe de troisième et au niveau du cours moyen. Un autre facteur paraît jouer pour accroître la disparité des échelles d’évaluation utilisées par les enseignants dans leurs classes: leurs divergences d’opinion sur les objectifs de leur enseignement, divergences pouvant les conduire à pondérer de façon inégale des résultats identiques. Ces divergences ont été mises en évidence dans une enquête au cours de laquelle on a demandé à des professeurs enseignant dans des classes de troisième ou de seconde de préciser quel devait être d’après eux le niveau des élèves qu’ils jugeraient capables d’entrer en seconde. On leur a demandé d’indiquer selon quelle proportion ces élèves devraient être capables de répondre correctement à un certain nombre de questions de français et de mathématiques. Pour certaines de ces questions, cette proportion s’étale entre cent pour cent pour certains enseignants et zéro pour d’autres, tous les jugements intermédiaires figurant parmi les réponses fournies.À côté des enquêtes portant sur des notes d’examen ou sur des notes attribuées par les professeurs à leurs élèves, la critique des méthodes d’évaluation a utilisé des expériences au cours desquelles les mêmes données (travaux écrits, interrogations indépendantes) ont fait l’objet de plusieurs évaluations indépendantes, qui ont été ensuite comparées.Au cours de l’«enquête Carnegie», des séries de cent copies du baccalauréat furent reproduites en cinq exemplaires et appréciées indépendamment par cinq correcteurs. Les cinq moyennes s’étalent sur une marge allant en composition française de 6,32 à 10,00, en mathématiques de 7,01 à 9,16, en philosophie de 7,65 à 11,23, en physique de 7,11 à 9,48, etc. Trois copies de composition française, appréciées indépendamment par soixante-seize correcteurs, se virent attribuer des notes allant respectivement de 1 à 13, de 3 à 16, de 4 à 14. Plus récemment, vingt interrogations expérimentales de physique, identiques à celles du baccalauréat de mathématiques, ont été enregistrées et soumises pour évaluation à seize professeurs habitués à interroger à cet examen. Les seize moyennes se sont dispersées de 8,03 à 13,40. Dans ces expériences, on a pu également constater que la même série de copies ou de réponses orales suscitait des évaluations qui se dispersaient plus ou moins autour de leur moyenne, lorsqu’on passait d’un juge à un autre. L’étude des corrélations entre correcteurs est ici particulièrement intéressante. On sait que la corrélation entre deux séries de notes attribuées aux mêmes élèves n’est affectée ni par les différences de moyennes, ni par les différences de dispersion dont il vient d’être question. Elle dépend essentiellement du classement de ces élèves par chacun des deux juges. On peut dire approximativement que, si ces classements sont identiques, un coefficient de corrélation est égal à 1,00. Il est égal à 0,00 si les deux classements sont indépendants (comme si l’un des deux au moins avait résulté d’un tirage au hasard). On constate que les corrélations entre les notes données par des juges différents sont en général faibles, et que le même juge, s’il note deux fois les mêmes copies, peut n’être que très partiellement d’accord avec lui-même. Trente-sept copies d’un certificat d’études supérieures de sciences ont été reproduites et notées chacune par trois professeurs X, Y, Z. À trois ans d’intervalle, le professeur X corrigea deux fois ces copies. Z les corrigea deux fois aussi, à dix mois d’intervalle. La corrélation moyenne entre correcteurs différents est seulement de 0,58. Les deux notations de X présentent entre elles une corrélation de 0,58. Cette corrélation est de 0,81 pour Z.Les effets et les sources des erreurs d’évaluationQuels sont les effets de ces désaccords entre notateurs? Si tous les candidats à un examen (où il suffit d’atteindre une certaine note, 10 sur 20 par exemple, pour être reçu) sont notés par le même juge, l’examen deviendra évidemment plus ou moins difficile selon la moyenne qui sera adoptée par ce juge. Si l’examen comporte des épreuves différentes dont les notes s’ajoutent, une épreuve entrera dans ce total avec un poids plus grand si les notes qu’elle fournit sont largement dispersées autour de leur moyenne, plus petit si cette dispersion est faible. Ce facteur modifie donc le poids réglementaire des différentes épreuves, à l’insu en général des organisateurs de l’examen. Si les candidats à un examen sont notés par des juges différents, ces effets des différences entre moyennes et entre dispersions se diversifient d’un juge à l’autre. Dans un concours où tous les candidats sont notés par le même juge, le choix de la moyenne est arbitraire, puisqu’il ne modifie pas le classement, qui seul intervient ici. Dans un examen comme dans un concours, la faible corrélation entre les juges a pour conséquence de faire varier la liste des admis, selon que l’un ou l’autre de ces juges fait passer l’épreuve. C’est ainsi, par exemple, que les cinq notes attribuées comme il a été dit plus haut dans un certificat d’études supérieures de sciences ne déterminent pas les mêmes admis parmi les candidats à cet examen: 27 p. 100 d’entre eux seraient admis par les cinq évaluations, 19 p. 100 seraient éliminés par les cinq évaluations, mais 54 p. 100 seraient admis par certaines et éliminés par d’autres.Les sources des erreurs d’évaluation ne sont pas exactement les mêmes selon que l’évaluation consiste à opérer des comparaisons interindividuelles (à situer un élève au sein d’une population d’élèves) ou qu’elle consiste à constater qu’un élève satisfait ou non à un certain critère, à certaines normes. Dans le premier cas, l’évaluation d’un élève pourra être différente selon le groupe que l’on utilisera comme groupe de référence. Il s’agit là d’une erreur dans la mesure seulement où l’usage de groupes différents n’est pas perçu ni explicité, et où les estimateurs agissent comme s’ils utilisaient le même groupe. Il pourrait y avoir un sens à comparer un élève donné à des groupes différents, par exemple à des groupes constitués par des candidats antérieurement admis à différents examens ou concours entre lesquels l’élève considéré souhaite pouvoir choisir. Dans le second cas (utilisation de normes), les erreurs sont suscitées par le fait que des normes implicites différentes sont utilisées par des estimateurs différents. Dans l’un et l’autre cas, les connaissances d’un élève peuvent être évaluées à des points de vue différents, c’est-à-dire selon des dimensions différentes. Par exemple, on peut, dans une dissertation, noter l’organisation des idées, leur originalité, la correction de l’expression, l’élégance du style, etc. Les notateurs utilisent en fait une dimension composite dans laquelle les dimensions élémentaires entrent avec des poids variables lorsqu’on passe d’un notateur à un autre.À ces différentes sources de variation entre les notes de correcteurs différents viennent s’ajouter des sources de variation dépendant des questions posées. Les questions effectivement posées à un candidat doivent être considérées comme un échantillon extrait d’un ensemble bien plus large de questions qui auraient également pu lui être posées. On a vérifié sur les données fournies par des examens en médecine, où chaque candidat doit répondre à un grand nombre de questions, que la réussite d’un même étudiant varie largement lorsqu’on considère différentes sous-épreuves constituées à partir de l’épreuve globale.Enfin, une autre source de variation provient des candidats eux-mêmes, surtout lorsqu’ils sont jugés en une seule occasion: des fluctuations assez considérables s’observent chez beaucoup d’élèves lorsque leurs connaissances sont évaluées plusieurs fois succestivement.À ces multiples sources d’erreur, on a parfois tenté de trouver des palliatifs globaux, présentant souvent un caractère de grande simplicité qui les rend particulièrement séduisants au premier abord.On a ainsi proposé, pour réduire l’amplitude des erreurs d’évaluation, de ramener de vingt à cinq le nombre des échelons utilisés pour formuler ces évaluations. Il est tout à fait évident que le nombre des désaccords entre juges diminuera avec le nombre d’échelons: il suffirait d’utiliser une «échelle» ne comportant qu’un seul échelon pour faire disparaître tout désaccord. On peut craindre cependant que l’amplitude de chacun des désaccords subsistant sur une échelle en cinq échelons ne soit bien plus grande, et que cette réforme se ramène à exprimer en unités plus larges une quantité totale d’erreurs que l’on n’a rien fait pour atténuer. On peut aussi se demander si la capacité de discrimination des notateurs est pleinement utilisée avec une échelle en cinq classes. Le véritable problème est ici de définir quelle est, en moyenne, cette capacité de discrimination pour chaque type d’épreuve. C’est un des nombreux problèmes docimologiques qui restent à étudier sur des bases expérimentales.On a également remarqué que les erreurs d’évaluation se manifestaient par des divergences entre notes chiffrées, et l’on a pensé qu’il suffirait peut-être de ne plus employer de chiffres pour que le problème ne se pose plus. Aussi a-t-on parfois recommandé d’utiliser des lettres (A, B, C, D, E) ou des mots (très bon, bon, moyen, faible). On a malheureusement constaté que l’essentiel de la difficulté ne résidait pas là. Par exemple, huit correcteurs ont noté indépendamment des épreuves de calcul et de français appliquées à cent trente-quatre élèves de cours moyen en utilisant à la fois des notes et des appréciations verbales. Les désaccords entre correcteurs sont plus importants avec celles-ci.La proposition consistant à remplacer les examens par les notes scolaires données à leurs élèves par les enseignants qui sont en contact avec eux pendant une année est plus substantielle. Elle a été discutée plus haut, à propos des différences de niveau entre classes. On peut ajouter à ce qui a été dit que, dans bien des cas, la «personnalisation» des rapports entre l’élève et l’enseignant peut être illusoire: elle peut ne pas intervenir, compte tenu du nombre des élèves confiés au même enseignant; elle peut se fonder sur des faits mineurs et non significatifs; elle peut fournir des indications variant largement d’un enseignant à un autre à propos du même élève.2. Aspects constructifs des recherches docimologiquesLes recherches docimologiques n’ont pas découvert de moyen simple et universel pour résoudre les problèmes posés par l’évaluation des résultats de l’éducation. Elles offrent, dans certains cas, des moyens techniques d’améliorer les méthodes traditionnelles; dans d’autres cas, elles proposent des méthodes nouvelles. De façon générale, elles tendent à montrer que le problème de l’évaluation n’est pas séparable d’autres problèmes éducatifs, et elles s’efforcent de préciser la nature de ces liaisons.L’amélioration des méthodes traditionnellesHarmonisation des échelles d’évaluationLes erreurs d’évaluation découlant seulement du fait que des juges différents centrent leurs notes sur des moyennes différentes et les dispersent plus ou moins autour de cette moyenne peuvent être corrigées assez facilement dans certains cas.Si chaque juge évalue un groupe d’élèves suffisamment important et extrait au hasard de l’ensemble des candidats, la différence «vraie» la plus probable entre les moyennes ou entre les dispersions de deux juges est une différence nulle. On peut donc proposer aux différents juges d’accepter que les notes qu’ils ont attribuées aux candidats subissent a posteriori une correction statistique choisie de façon telle que toutes les moyennes et toutes les dispersions deviennent égales. Il suffit, pour égaliser les moyennes, d’ajouter aux notes de chaque juge une correction égale à la différence entre la moyenne générale et la moyenne de ce juge et, pour égaliser les dispersions, de multiplier les notes de chaque juge par un coefficient convenablement choisi. Une correction de ce type, concernant les moyennes, a été proposée dans certaines circonstances aux examinateurs du baccalauréat et à ceux de certains concours. Cette méthode, très simple, n’est cependant applicable que dans les cas où les candidats examinés par différents juges constituent des groupes extraits au hasard de l’ensemble des candidats.Si cette condition n’est pas respectée, le problème se complique un peu. C’est le cas notamment lorsqu’on souhaite pouvoir utiliser pour des comparaisons «externes» (entre élèves appartenant à des classes ou à des écoles différentes) des notes individuelles «internes» (attribuées par les enseignants à leurs élèves dans chacune de ces classes ou écoles). Il faut en effet tenir compte dans ce cas des importantes différences «vraies» existant entre les moyennes (et éventuellement les dispersions) de ces classes ou écoles. On peut utiliser dans ces cas des méthodes dites de modération. Certaines de ces méthodes utilisent les renseignements fournis par une épreuve normalisée préalablement appliquée à l’ensemble des classes concernées. Cette épreuve définit la moyenne et la dispersion de chaque classe. L’enseignant reste libre d’attribuer les notes individuelles au sein de sa classe en fonction de tout ce qu’il sait de ses élèves. Mais la moyenne et la dispersion de ces notes doivent se conformer au «calibrage» fourni par l’épreuve commune (qui n’intervient donc en rien sur le classement des élèves au sein de la classe). Diverses techniques (notamment celles qui ont été évoquées au cours du paragraphe précédent) permettent d’atteindre ce résultat. D’autres méthodes de modération évitent l’emploi, qui peut être critiqué à certains égards, d’une épreuve commune et portent directement sur la notation d’une épreuve scolaire proposée à tous les élèves d’un ensemble de classes. Les copies de chaque classe sont d’abord corrigées par l’enseignant chargé de cette classe. Des échantillons de copies provenant des différentes classes sont en outre recorrigés par un groupe de «modérateurs», ce qui permet ensuite un certain ajustement des notes attribuées par chaque enseignant. Ces méthodes de modération ont surtout été utilisées en Grande-Bretagne. Elles sont coûteuses et d’une portée évidemment limitée (en particulier, les erreurs portant sur le classement des élèves d’une même classe leur échappent). Mais elles paraissent s’insérer plus naturellement dans la pratique de l’enseignement.Notation des épreuves à expression libreAu lieu de tenter de «corriger» après coup les notations des enseignants, on peut travailler à améliorer les méthodes que ceux-ci emploient. Le problème est particulièrement difficile en ce qui concerne les épreuves à expression libre, par exemple les compositions en langue maternelle. L’un de ses aspects les plus difficiles consiste à définir explicitement les différents points de vue ou «dimensions» selon lesquels les travaux peuvent être évalués. On a demandé à des groupes de correcteurs d’évaluer séparément un certain nombre de «qualités» et on a cherché pour lesquelles d’entre elles (ou pour quelles combinaisons d’entre elles) un accord suffisant s’établissait entre les juges. En utilisant cette méthode, on aboutit à des listes telles que, selon C. Remondino, la présentation matérielle, l’usage de la langue, le contenu et l’organisation de l’exposé, les aspects personnels et, selon J. W. French, les idées, la forme et l’organisation, le caractère personnel, la correction grammaticale, le choix des mots. L’usage de «barèmes» attribuant un certain nombre de points (chaque degré de réussite étant éventuellement défini par des exemples) à chaque dimension retenue diminue largement les différences habituellement observées entre notateurs dans ce domaine. Cependant, cette «parcellisation» de la notation n’a pas toujours été jugée satisfaisante. Une autre méthode consiste à demander à plusieurs correcteurs (quatre par exemple) de lire très rapidement les mêmes copies. Chacun d’eux attribue indépendamment une note en fonction de son impression globale. La note définitive est la moyenne de ces quatre notes.Les épreuves normalisées de connaissancesLes différentes contributions évoquées ci-dessus visent, en général, à améliorer des formes traditionnelles d’évaluation. Les travaux relatifs aux méthodes de construction des tests psychologiques ont conduit à créer des épreuves de connaissances de formes nouvelles en utilisant les mêmes méthodes, et ces épreuves se sont multipliées, notamment aux États-Unis.Elles sont en général constituées d’un assez grand nombre de questions, et l’effort de normalisation s’exerce d’abord sur le choix et la formulation de ces questions. On vérifie qu’elles portent bien sur le programme dont on veut contrôler l’acquisition ou, de façon plus générale, qu’elles correspondent bien aux capacités ou aux compétences que la formation considérée se propose de développer. On vérifie que leur formulation est dépourvue d’ambiguïté, que leur niveau de difficulté correspond au niveau moyen des candidats. Mais l’aspect essentiel de la normalisation réside dans le fait que les réponses à ces questions ne sont pas, en général, libres: le candidat est prié de choisir, parmi plusieurs réponses proposées, celle qui lui paraît exacte. C’est évidemment dans cette modalité de réponse que réside l’originalité essentielle des épreuves de ce type, et elle a fait l’objet de critiques parfois un peu sommaires qu’il faut examiner d’abord.On a cru parfois que ces épreuves ne pouvaient s’appliquer qu’à la vérification de connaissances élémentaires mémorisées, ce qui restreindrait beaucoup son champ d’application. En fait, des questions ainsi formulées peuvent exiger des élaborations complexes: des classements, des combinaisons de choix, des comparaisons entre séries de faits avec choix de propositions décrivant certaines relations entre ces faits, etc. Des progrès considérables ont notamment été réalisés dans cette voie à propos des examens de médecine. Voici, à titre d’exemple, un type de question utilisé dans ce domaine.Deux propositions sont énoncées, par exemple:– Le frisson thermique est une réaction thermorégulatrice efficace chez un homéotherme exposé au froid.– Il diminue la déperdition de chaleur.Pour chaque paire de propositions de ce genre, le candidat a cinq possibilités de réponse:– Les deux propositions sont vraies et ont une relation de cause à effet.– Les deux propositions sont vraies mais n’ont pas de relation de cause à effet.– La première proposition est vraie et la seconde est fausse.– La première proposition est fausse et la seconde est un fait ou un principe accepté.– Les deux propositions sont fausses.Toujours en médecine, d’autres épreuves normalisées simulent un examen clinique. Après l’exposé des circonstances où le médecin est appelé à intervenir, le candidat peut demander différents types d’informations complémentaires, décider d’accomplir certains actes médicaux. C’est la succession de ses démarches et le choix de chacune d’elles parmi un éventail qui lui est proposé à chaque étape qui permettent d’évaluer sa compétence.Ces exemples montrent qu’il ne faut pas confondre la simplicité de la forme de réponse proposée avec la nature des opérations intellectuelles exigées par la résolution du problème posé. Ils montrent aussi que les chances de répondre juste au hasard peuvent être minimisées en augmentant le nombre des éventualités proposées (en particulier lorsque la bonne réponse implique plusieurs choix simultanés). Les effets du hasard dans cette forme de questions peuvent d’ailleurs être corrigés par d’autres méthodes telles que la pénalisation des réponses fausses. On peut même, dans certains domaines où la marge des réponses possibles est limitée, laisser le candidat rédiger librement sa réponse sans perdre pour autant les avantages des épreuves normalisées (il est possible de programmer un ordinateur de façon telle qu’il «lise» de telles réponses libres).Les avantages des épreuves de ce type sont importants, partout où elles peuvent s’appliquer. La correction devient entièrement automatique. Non seulement elle ne peut plus entraîner de divergences entre correcteurs, mais elle peut être entièrement confiée à une machine. Aux États-Unis, les enseignants utilisant de telles épreuves reçoivent directement de l’organisme qui les construit non seulement les notes de chaque élève mais encore un certain nombre d’indications statistiques susceptibles d’avoir une importance pédagogique: pourcentage de réussite à chaque question dans la classe et dans des groupes plus étendus (ce qui permet de mettre en évidence des lacunes qui, communes à tous les élèves d’une classe, peuvent ne pas y être perçues), fréquence des différents types d’erreurs, comparaison de la distribution des notes dans la classe et dans des groupes plus étendus, etc. Un autre avantage important réside dans le fait que, de multiples questions pouvant ainsi être posées, les erreurs suscitées par le choix d’un sujet unique sont évitées.Cependant, si les épreuves normalisées constituent dans bien des cas un progrès important sur les méthodes traditionnelles, elles ne représentent pas une solution parfaite et universelle. Elles exigent un énorme travail de préparation et d’étude expérimentale préalable, de telle sorte qu’elles ne peuvent être pratiquement utilisées que dans des circonstances où le grand nombre des candidats justifie ce travail. Le secret des épreuves préparées et utilisées pose aussi des problèmes. On a pu se demander si le contenu des «banques de questions» ne pourrait pas être publié. Si, dans un domaine donné, le nombre de questions publiées était très élevé, le «bachotage» de ces questions tendrait à se confondre avec l’étude systématique du domaine. On a également discuté l’idée que certaines formes d’esprit se trouvaient favorisées dans de telles épreuves. Il semble qu’une familiarisation préalable de tous les candidats avec la forme de ces questions puisse atténuer beaucoup cette objection. On s’est également demandé si l’emploi de telles épreuves n’exercerait pas une influence défavorable sur l’enseignement. Tout le problème est d’utiliser des épreuves répondant aux objectifs de l’enseignement. Mais il est parfois difficile, nous allons y revenir, de savoir précisément quels sont ces objectifs. Il est assez évident enfin que certaines disciplines littéraires ou artistiques se prêtent mal à des méthodes d’évaluation de ce type. Mais on peut se demander si la notion même d’objectivité dans l’évaluation est compatible avec les objectifs que paraissent se fixer ces disciplines. Toutes ces questions conduisent à réinsérer les problèmes d’évaluation dans l’ensemble des problèmes éducatifs.3. Évaluation et éducationL’évaluation peut être considérée comme une procédure constamment associée à la procédure éducative. Idéalement, c’est seulement en fonction des effets qu’il observe sur chacun de ses élèves que l’éducateur peut régler sa démarche. Des informations en retour (feed-back ) paraissent constamment nécessaires pour que le déroulement de la procédure éducative puisse s’opérer correctement. L’évaluation devient alors un aspect de l’éducation qui se trouve intégré de façon étroite et permanente aux autres aspects. Cette vision des choses se concrétise dans certaines formes d’enseignement programmé (N. A. Crowder): c’est la réponse fournie par l’étudiant qui l’oriente, selon qu’elle est exacte ou qu’elle témoigne de telle ou telle lacune, vers l’unité du programme qui est adaptée dans son cas. À une échelle plus large, cette conception de l’évaluation apparaît aussi dans les expériences d’enseignement assisté par ordinateur (computer aided instruction ). C’est un ordinateur qui analyse les lacunes dont témoignent les réponses de chaque étudiant avec lequel il «dialogue» et qui le renvoie aux sources d’information, aux exercices, etc., adaptés à l’état actuel de ses connaissances. Ces méthodes d’avant-garde laissent un rôle décisif à l’enseignant: c’est évidemment lui qui, en collaboration avec des informaticiens, peut programmer l’ordinateur. Mais c’est lui aussi qui discute avec les étudiants, suggère les mises en perspective, les synthèses, etc.Cette conception de l’évaluation renvoie à un problème plus général, celui de la définition explicite des objectifs de l’éducation. La nécessité de cette définition est mise en évidence par l’enseignement programmé ou l’enseignement aidé par ordinateur: on ne peut écrire un programme sans définir explicitement ce qu’il se propose d’enseigner. La même nécessité est rendue manifeste par le choix des questions d’une épreuve normalisée. La docimologie joue seulement ici le rôle de révélateur. Un grand nombre de problèmes éducatifs sont difficiles ou impossibles à poser pour la raison fondamentale qu’aucune définition précise, explicite, pratiquement utilisable n’est donnée en général des objectifs de l’éducation dans ses différents secteurs. Des définitions de ce genre ne présentent en effet un intérêt que si elles sont assorties de critères permettant de savoir si un objectif est atteint ou non. Certains travaux s’efforcent de formuler en de tels termes les objectifs de l’éducation (ceux de B. Bloom). Ils sont très difficiles à mener à bien. Stimulés par les problèmes docimologiques, ces travaux ont une grande portée générale.
Encyclopédie Universelle. 2012.